Algorithme semi-interactif pour la sélection de dimensions
نویسندگان
چکیده
Résumé. Nous présentons un algorithme génétique semi-interactif de sélection de dimensions dans les grands ensembles de données pour la détection d'individus atypiques (outliers). Les ensembles de données possédant un nombre élevé de dimensions posent de nombreux problèmes aux algorithmes de fouille de données, une solution est d'effectuer un pré-traitement afin de ne retenir que les dimensions "intéressantes". Nous utilisons un algorithme génétique pour le choix du sous-ensemble de dimensions à retenir. Par ailleurs nous souhaitons donner un rôle plus important à l'utilisateur dans le processus de fouille, nous avons donc développé un algorithme génétique semi-interactif où l’évaluation des solutions n'élimine pas complètement la fonction d'évaluation mais la couple avec une évaluation de l'utilisateur. Enfin, l'importante réduction du nombre de dimensions nous permet de visualiser les résultats de l'algorithme de détection d'outlier. Cette visualisation permet à l'expert des données d'étiqueter les éléments atypiques (erreurs ou simplement des individus différents de la masse).
منابع مشابه
DynaClose : Une approche de data mining pour la sélection des index de jointure binaires dans les entrepôts de données
Résumé. L’indexation est l’une des techniques d'optimisation redondantes qui accélère les requêtes OLAP. Deux types d’index sont disponibles : les mono-index (B-tree, index binaire, projection, etc.) et les multi-index (index de jointure). Pour un entrepôt représenté par un schéma en étoile, les index de jointure binaires sont souvent utilisés pour accélérer les requêtes de jointure en étoile c...
متن کاملUn critère d'évaluation pour la sélection de variables
Résumé. Cet article aborde le problème de la sélection de variables dans le cadre de la classification supervisée. Les méthodes de sélection reposent sur un algorithme de recherche et un critère d’évaluation pour mesurer la pertinence des sous-ensembles potentiels de variables. Nous présentons un nouveau critère d’évaluation fondé sur une mesure d’ambigüıté. Cette mesure est fondée sur une comb...
متن کاملUne sélection multiple des structures d'optimisation dirigée par la méthode de classification K-means
Résumé. Le volume d’information contenu dans un entrepôt de données s’accroît sans cesse, augmentant de ce fait le temps d’exécution des requêtes décisionnelles. Pour y remédier, l’administrateur doit, durant la phase de conception physique de l’entrepôt, effectuer une sélection de structures d’optimisation (index, vues matérialisées ou fragmentation), puis assurer leur gestion et maintenance. ...
متن کاملSSC: Statistical Subspace Clustering
Résumé. Cet article se place dans le cadre du subspace clustering, dont la problématique est double : identifier simultanément les clusters et le sousespace spécifique dans lequel chacun est défini, et caractériser chaque cluster par un nombre minimal de dimensions, permettant ainsi une présentation des résultats compréhensible par un expert du domaine d’application. Les méthodes proposées jusq...
متن کاملClustering visuel semi-interactif
Résumé. Nous proposons dans cet article une approche de clustering visuel semi-interactif. L’approche proposée utilise la perception visuelle pour guider l’utilisateur dans le processus interactif. Les clusters sont extraits de manière successive et itérative, puis évalués selon leur ordre d’extraction. Pour l’utilisateur, l’approche semi-interactive permet non seulement d’évaluer les classes e...
متن کامل